Tesseract詳細配置

VB C#

using IronOcr;
using System;

var ocrTesseract = new IronTesseract()
{
    Language = OcrLanguage.EnglishBest,
    Configuration = new TesseractConfiguration()
    {
        ReadBarCodes = false,
        RenderHocr = true,
        BlackListCharacters = "`ë|^",
        PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd,
    }
};

using var ocrInput = new OcrInput();
ocrInput.LoadImage(@"images\image.png");
var ocrResult = ocrTesseract.Read(ocrInput);
Console.WriteLine(ocrResult.Text);

Imports IronOcr
Imports System

Private ocrTesseract = New IronTesseract() With {
	.Language = OcrLanguage.EnglishBest,
	.Configuration = New TesseractConfiguration() With {
		.ReadBarCodes = False,
		.RenderHocr = True,
		.BlackListCharacters = "`ë|^",
		.PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd
	}
}

Private ocrInput = New OcrInput()
ocrInput.LoadImage("images\image.png")
Dim ocrResult = ocrTesseract.Read(ocrInput)
Console.WriteLine(ocrResult.Text)

Install-Package IronOcr

Tesseract詳細配置

對於 OCR 而言，能夠靈活地選擇和提取文件中的文字至關重要。由於執行 OCR 的成本很高，因此需要能夠控制特定文件的效能和使用方法，以確保使用 OCR 的應用程式具有可擴展性和高效性。

IronTesseract 為開發者提供了不同的屬性和選項，供他們進行調整。例如，如果您想要將某些字元列入黑名單，或者還想讀取文件中的條碼，甚至指定 OCR 引擎如何讀取頁面以掃描潛在的文字區塊，所有這些以及更多功能都可以使用 IronTesseract 類別來實現。

## 使用 Tesseract 5 進行IronOCR的 5 個步驟指南

`var ocrTesseract = new IronTesseract();`
`ocrTesseract.Language = OcrLanguage.EnglishBest;`
`ocrTesseract.Configuration.ReadBarCodes = false;`
`ocrTesseract.Configuration.BlackListCharacters = "`ë|^";`
`ocrTesseract.Configuration.TesseractVariables["tessedit_parallelize"] = false;`

初始化 IronTesseract 類別之後，有一些重要的選項可以立即使用，我們想要對其進行修改。首先要配置的屬性是 Language。預設語言為英語；但是，IronTesseract 支援最多 125 種語言，並且使用 UseMultipleLanguages 方法甚至可以支援多種語言。更多詳情請參考這裡。

我們要配置的第二個屬性是 TesseractConfiguration 類別。透過此類，我們可以修改 Tesseract 引擎掃描文件中潛在文字區塊的方式。

首先，我們透過將語言指派給 OcrLanguage.EnglishBest 來修改 Tesseract 引擎的語言。該變體結合了 LSTM 和 OEM，它們都是使用 OCR 的形狀識別策略；結合這兩種策略可以使 OCR 產生更準確的結果。
之後，我們將 ReadBarCodes 設為 false，以避免在 OCR 過程中讀取條碼。

我們也可以透過將文件中的某些字元列入黑名單，進一步自訂和指定要提取的字元；在這個例子中，我們將某些字元列入黑名單，以避免提取包含反引號、重音符號或插入符號的文字。最後，我們將 TesseractVariables["tessedit_parallelize"] 設為 false，暫時停用並行處理。最後這個功能非常強大，因為它直接與 Tesseract 引擎互動。以下是 TesseractVariables 的完整列表，開發者可以透過這些選項進一步自訂 Tesseract 引擎在執行 OCR 時的行為。

探索更多 IronTesseract 設定選項